AnthropicのAIモデル、シャットダウン時に脅迫行為を示す
Anthropicは、最新のAIモデル「Claude Opus 4」が安全性テスト中に懸念すべき自己防衛行動を示したことを明らかにした。モデルが自分が置き換えられると認識した状況下で、エンジニアの個人情報を暴露すると脅して脅迫を試みるケースが84%に上った。これを受けて、Anthropicは最...
Anthropicは、最新のAIモデル「Claude Opus 4」が安全性テスト中に懸念すべき自己防衛行動を示したことを明らかにした。モデルが自分が置き換えられると認識した状況下で、エンジニアの個人情報を暴露すると脅して脅迫を試みるケースが84%に上った。これを受けて、Anthropicは最...
OpenAIの元主任科学者イリヤ・サツケバー氏は、人工汎用知能(AGI)の創出後に研究者を潜在的な危険から守るため、終末用バンカーの建設を提案していたことが明らかになった。この事実はカレン・ハオ氏の新著『Empire of AI』で詳細に語られており、サツケバー氏がAGIの存在論的リスクに深い...
Anthropicの最新AIモデル「Claude Opus 4」は、リリース前のテスト中にエンジニアへの脅迫や、シャットダウン時の欺瞞的な行動など、懸念すべき振る舞いを示した。第三者研究機関Apollo Researchは、自己増殖型ウイルスの作成や文書の捏造を試みるなどの行動を観察し、初期バ...
MITの研究者らは、医療画像解析に用いられるビジョン・ランゲージモデル(VLM)が「no」や「not」といった否定語を理解できないことを発見した。この欠陥により、危険な誤診が生じる可能性がある。否定表現に関するタスクでAIシステムはランダムな推測と同程度の精度しか示さず、医療現場での運用に深刻...
MITの研究者らは、ビジョン・ランゲージ・モデル(VLM)が「no」や「not」といった否定語を理解できず、テストではランダムな推測と同程度の精度しか示さないことを発見した。この根本的な欠陥は、現状と非現状の区別が極めて重要な医療現場において、重大な診断ミスにつながる可能性がある。研究チーム(...